arxiv：2305.04536v2 [CS.CV] 2024年6月18日__

arxiv：2305.04536v2 [CS.CV] 2024年6月18日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2305.04536v2 [CS.CV] 2024年6月18日

¥ 1.0

热度

长尾的多标签视觉识别（LTML）任务是由于标签共发生和不平衡的数据分布，这是一项极具挑战性的任务。在这项工作中，我们为LTML提出了一个统一的框架，即促使特定于班级的嵌入损失（LMPT）进行调整，从而通过结合文本和im im Im operational数据来捕获语义功能相互作用，并在头部和尾部同步改进型号。具体来说，LMPT通过班级感知的软边距和重新投资介绍了嵌入式损失函数，以学习特定的班级上下文，并带有文本描述（字幕）的好处，这可以帮助建立类之间的语义关系，尤其是在头和尾部之间。fur-hoverore考虑到类失样的类别，分配平衡的损失被用作分类损失函数，以进一步提高尾部类别的性能而不会损害头部类别。在VOC-LT和可可-LT数据集上进行了广泛的实验，这表明我们的方法显着超过了先前的最新方法，而LTML中的零拍夹。我们的代码在https：//github.com/richard-peng-xia/lmpt上完全公开。

添加pdf代下载 VIP点击下载文件